githubのtimelineがbigqueryで解析できる - dev.jgs.me
code:_
select
repository_language,
count(distinct(repository_url)) as active_repos_by_url,
YEAR(created_at) as year,
QUARTER(created_at) as quarter,
where
type="PushEvent"
group by
repository_language,
year,
quarter
order by
repository_language,
year DESC,
quarter DESC
みたいなSQLを書くと言語毎のPush量みたいなやつが見れたりする。ほいではStarはどうなのかなあ、とおもったらgithubarchive:github.timelineのスキーマのtypeにStar的なやつがなかったので見れなかった。 #20140926 現在、githubarchive:github.timelineは249,308,569のRowがあって、サイズは154GBもあるんだそうだ。それがものの10s程度で解析できるのでBigQueryスゲーなとおもいます。